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摘要 : [目的 /意义 ] 随 着 互联 网 技术 的 快速 发 展 , 知 乎 平台 逐渐 成 为 一 个 热 议 社会 公众 话题 以 及 分 享 知 
识 、 经 验 的 载体 。 因 此 ,分 析 知 乎 平台 中 关键 用 户 的 影响 力 和 挖 气 其 中 的 关键 意见 领袖 在 研究 社交 网 络 信息 传 
播 途径 的 过 程 中 起 到 非常 重要 的 作用 。[ 方 法 /过 程 ] 通过 提出 改进 的 PageRank 算法 和 HITS 算法 ,分 别 基 于 
知 乎 用 户 社交 网 络 、 问 答 网 络 构 建 用 户 影响 力 挖 握 模 型 ,能 够 准确 、 客 观 地 识别 出 其 中 的 关键 用 户 及 意见 领袖 。 
[结果 /结论 ] 实验 结果 表明 ,提出 的 PageRank 算法 和 HITS 算法 能 够 有 效 挖掘 出 知 乎 平台 中 具有 较为 突出 特 
性 的 关键 意见 领袖 ,并 且 算 法 的 收敛 速度 较 快 ,具有 可 复 用 性 和 迁移 性 。 通 过 对 知 乎 平台 用 户 数 据 集 进行 处 理 
厅 有 效 分 析 , 成 功 建立 用 户 影响 力 和 关键 意见 领袖 挖掘 模型 ;同时 ,在 具体 话题 上 进行 验证 。 因 此 ,可 以 推断 该 


模型 有 巨大 应 用 价值 和 商业 化 推广 前 景 。 
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随 着 社交 网 络 的 发 展 , 微 博 、 知 乎 等 社交 软件 逐渐 
成 为 各 行 各 业 精 英 用 来 交流 行业 信息 .专业 知识 以 及 
生 颖 经 验 的 常用 工具 " 。 特 别 的 是 , 知 乎 提供 的 问答 
平 登 不 仅 满足 了 用 户 之 间 基 本 的 社交 需求 (相互 关注 
及 咏 问 ) ,也 满足 了 在 分 享 和 问答 的 过 程 中 建立 个 人 威 
望 区 及 自我 实现 的 人 性 需求 ,因此 吸引 了 大 量 的 行业 
精 哆 专家、 网 络 红 人 、 社 会 名 人 等 权威 人 士 加 入 其 中 ， 
并 根据 其 相互 之 间 的 关系 逐步 形成 一 个 具有 多 主体 直 
接 互 动 性 \ 长 期 性 以 及 近 同 时 性 的 社交 问答 网 络 。 

关键 意见 领袖 是 指 在 人 际 传播 网 络 中 为 他 人 提供 
信息 ,同时 也 对 他 人 施加 影响 的 “活跃 分 子 ”" 。 他 们 
既是 信息 传播 过 程 中 的 权威 起 源 者 ,也 是 主要 扩散 者 ， 
由 此 形成 了 社交 网 络 中 的 信息 级 联 传播 。 在 社交 网 络 
的 信息 传播 交流 过 程 中 ,具有 较 强 影响 力 的 用 户 以 及 
关键 领袖 在 其 中 发 挥 的 作用 越 来 越 明 显 。 近 年 来 的 大 
量 研究 表明 ,关键 意见 领袖 在 网 络 知识 传播 、 网 络 口 
碑 效 应 “以 及 网 络 交际 “等 社会 现象 中 起 到 了 非常 重 
要 的 影响 。 随 着 知 乎 平台 日 益 成 为 较为 重要 的 知识 分 
享 问答 社区 ,研究 用 户 的 影响 力 并 识别 出 其 中 的 关键 


意见 领袖 对 于 网 络 干预 网络 营销 ”| 、 网 络 结构 分 
析 以 及 电子 商务 领域 具有 极 大 的 意义 。 

在 大 多 数 识别 关键 意见 领袖 的 文献 中 ,使 用 社交 
网 络 分 析 的 方法 与 其 他 方法 相 比 具有 较为 明显 的 优 
势 " 。 为 了 在 知 乎 网 络 中 综合 性 地 识别 关键 用 户 , 笔 
者 利用 知 乎 平台 中 用 户 之 间 的 社交 以 及 问答 等 互动 行 
为 信息 ,建立 了 一 个 基于 知 乎 的 多 层次 的 综合 性 评价 
网 络 ,如 图 1 所 示 。 在 图 1 中 ,每 一 个 圆圈 结 点 代表 一 
个 用 户 ,方块 结 点 代表 一 个 回答 ,而 它们 之 间 的 连 线 代 
表 其 相互 的 社交 关系 以 及 问答 关系 。 笔 者 利用 其 社交 
关系 问答 关系 以 及 其 之 间 的 联系 ,建立 一 个 双 层 的 知 
乎 网 络 结构 。 

根据 先前 建立 的 双 层 知 乎 网 络 结构 ,首先 使 用 层 
次 分 析 法 构建 全 方位 的 知 乎 用 户 评价 指标 ,并 建立 用 
户 影 响 力 评 价 模型 。 使 用 用 户 影响 力 评价 模型 可 以 得 
到 每 一 位 知 乎 用 户 在 层次 分 析 指标 上 的 影响 力 权 重 ， 
随后 将 该 结果 与 传统 的 PageRank 算法 和 HITS 算法 模 
型 进行 结合 ,得 到 改进 的 综合 性 评价 模型 ,用 于 挖掘 知 
平平 台中 的 关键 用 户 及 意见 领袖 。 该 研究 过 程 及 其 框 
架 如 图 2 所 示 : 
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ON 十 于 对 知 乎 群体 和 其 社交 网 络 特性 上 的 分 析 和 控 
案 滁 者 提出 了 一 种 基于 改进 的 PageRank 和 HITS 算法 
横 王 用 于 挖 据 知 乎 平台 上 的 关键 用 户 以 及 分 析 其 影响 
力 呈 相对 于 现 有 的 研究 成 果 ,该 模型 具有 以 下 的 贡献 ; 


最 终 ,笔者 提出 了 一 种 可 复 用 的 客观 的 关键 用 户 
认 知 方法 ,并 且 在 真实 的 数据 集 上 对 提出 的 方法 的 准 
确 性 和 可 行 性 进行 了 研究 。 实 验 结果 表明 ,使 用 改进 
的 PageRank 算法 和 HITS 算法 能 够 有 效 地 挖 据 出 知 乎 
平台 中 具有 较为 突出 特性 的 关键 意见 领袖 ,并 且 算 法 
的 收敛 速度 较 快 ,具有 可 复 用 性 和 迁移 性 。 通 过 对 关 
键 话题 的 关键 意见 领袖 进行 分 析 , 可 以 得 到 有 和 较 大 洪 
力 的 商业 化 价值 。 


目前 ,在 识别 关键 意见 领袖 和 用 户 影响 力 领域 , 常 
用 的 方法 包括 层次 分 析 法 和 社交 网 络 挖掘 的 方式 两 
类 。 层 次 分 析 法 是 利用 关键 性 的 评价 指标 对 关键 意见 
领袖 的 特征 进行 描述 ,建立 相应 的 多 层 指标 体系 并 进 
行 打分 和 排序 。 例 如 在 豆 办 网 的 意见 领袖 识别 中 , 利 
用 其 中 心性 \ 活 路 性 \ 吸 聚 力 \ 传 染 力 等 特征 指标 对 用 
户 进行 评估 ” ;在 微 博 用 户 影响 力 评估 中 ,大 量 的 研究 
都 用 到 了 用 户 的 粉丝 数 、 微 博 数 、 被 转发 数 、 被 评论 数 、 
知名 度 .互动 率 ,原创 率 等 指标 建立 层次 分 析 结 构 ,并 由 
此 结构 加 权 平 均 得 到 最 终 的 结果 。 利 用 层次 分 析 法 ， 
可 以 根据 大 量 的 主观 研究 经 验 确定 较为 综合 的 评价 体 
系 ,进而 得 到 一 个 结构 性 的 多 目标 系统 评价 模型 。 

而 社交 网 络 挖 据 方 法 通常 根据 用 户 的 社交 网 络 关 
系 或 者 转发 问答 关系 来 构建 相对 应 的 社交 网 络 ,再 利 
用 基于 网 络 结构 的 算法 或 者 网 络 指标 来 分 析 用 户 的 重 
要 性 ,并 对 最 终 的 结果 进行 排名 。 例 如 利用 PageRank 


:三 首先 ,该 模型 结合 了 知 乎 平台 用 户 之 间 的 社交 网 
络 测 问答 网 络 关系 来 评估 一个 用 户 是 否 是 关键 用 户 。 
虽然 用 户 的 影响 力 和 权威 度 可 以 通过 社交 网 络 体现 出 
来 ,而 其 信息 的 传播 能 力 展现 在 活跃 的 问答 行为 中 。 
因此 ,将 这 两 个 网 络 层 的 信息 相 结合 ,有 助 于 综合 、 
观 地 挖掘 出 知 乎 平台 中 的 关键 用 户 和 评估 其 在 整个 平 
台中 的 影响 力 。 

其 次 ,用 于 分 析 用 户 影响 力 和 挖掘 关键 意见 领袖 
的 传统 PageRank 算法 和 HITS 算法 都 更 多 地 考虑 到 用 
户 或 者 问答 之 间 的 链接 数目 ,而 很 少 评估 用 户 的 可 信 
程度 以 及 问答 的 质量 ,因此 很 难 客观 地 评价 用 户 的 真 
正 影响 力 m 。 笔 者 根据 层次 分 析 法 确定 用 户 的 综合 
评价 模型 用 于 改进 传统 的 PageRank 算法 和 HITS 算法 
模型 ,通过 加 入 对 用 户 活跃 度 、 可 信和 度 和 影响 力 的 评 


算法 挖掘 Twitter 社交 网 络 中 的 重要 用 户 '" ;使 用 
HITS 算法 识别 微 博 转 发 网 络 中 的 意见 领袖 ;通过 混 
合 评价 模型 SALSA 或 者 加 权 评 价 算法 得 到 更 为 精确 
的 重要 性 排序 结果 。 基 于 社交 网 络 的 关键 意见 领 
袖 算法 能 够 挖掘 出 大 规模 数据 下 隐 含 的 规律 性 知识 ， 
进行 得 到 网 络 信息 传播 的 趋势 ,由 此 可 以 识别 出 对 于 
整个 网 络 有 着 关键 性 影响 的 用 户 及 其 社交 网 络 特性 。 

利用 层次 分 析 法 判断 社交 网 络 中 的 用 户 特性 具有 
更 为 全 面 的 特性 ,但 是 指标 的 构建 在 很 大 程度 上 需要 
决策 者 主观 确定 ,虽然 能 够 在 某 些 角度 上 体现 决策 者 
的 知识 经 验 ,但 也 会 由 于 个 人 的 偏好 使 得 构建 的 系统 
存在 主观 随意 性 。 而 相 比 较 而 言 , 基 于 社会 网 络 结构 
上 的 关键 意见 领袖 挖掘 在 客观 性 和 准确 性 方面 具有 更 
大 的 优势 。 因 此 ,笔者 采用 两 种 方法 相 结 合 的 方式 , 利 


估 , 并 且 加 权 两 种 算法 的 结果 进行 排名 ,能 够 较 大 程度 
上 改进 原 有 模型 在 初始 平分 权重 带 来 的 限制 ,进一步 
提升 模型 的 准确 性 和 有 效 性 。 


层次 分 析 法 评估 用 户 的 活跃 度 、 可 信 度 以 及 影响 力 ， 
并 用 以 上 用 户 评 估 模 型 的 结果 为 社交 网 络 算法 提供 方 
向 和 依据 。 
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目前 较为 常用 的 社交 网 络 挖掘 算法 为 PageRank 
算法 ,原始 的 PageRank 模型 是 Google 针对 网 站 中 网 页 
重要 性 评估 提出 来 的 。 近 来 大 量 的 研究 都 致力 于 对 传 
统 的 PageRank 算法 进行 改进 用 于 挖掘 社 交 网 络 中 的 
关键 用 户 "" ,并 且 PageRank 算法 也 体现 了 其 独 有 的 高 
效率 和 结构 稳定 性 。 但 是 在 知 乎 问答 平台 中 ,用 户 的 
多 次 提问 与 回答 的 行为 是 用 户 的 活跃 度 和 信息 扩散 能 
力 的 体现 ,并 不 会 因为 该 行为 导致 影响 力 的 贡献 分 散 。 


3.2 社交 网 络 和 问答 网 络 的 构建 

笔者 基于 知 乎 社区 的 用 户 和 内 容 结构 构造 了 一 个 
双 层 网 络 结构 ( 见 图 1 ) 。 用 户 与 用 户 之 间 的 相互 关注 
关系 构成 了 第 一 层 网 络 , 例 如 U2 与 U3 相互 关注 ， 
此 U2 与 U3 之 间 可 以 用 双向 箭头 进行 连接 ;U1 关注 了 
U3 ,因此 从 Ul 到 U3 有 一 条 指向 U3 的 单 向 直线 。 这 
也 是 传统 的 层次 分 析 法 的 基本 思路 ,根据 用 户 的 静态 
属性 , 即 粉丝 数 、 微 博 数 、 转 发 数 等 来 进行 判别 。 问 题 


因此 ,考虑 同时 使 用 另外 一 种 常见 的 网 络 结构 挖掘 算 
法 HITS ,用 于 多 角度 的 度量 用 户 在 知 乎 平台 中 的 社交 
以 及 问答 行为 ,并 对 最 终 的 排序 结果 进行 加 权 综 合 , 进 
而 形成 知 乎 用 户 影响 力 的 动态 挖 据 算法 。HITS 算法 
最 初 由 Kleinberg 提出 ,是 一 种 应 用 于 网 页 排序 的 结构 
的 掘 算法” 。 在 本 文中 ,HITS 算法 利用 一 种 相互 增强 
的 甘 系 ,用 于 识别 满足 需求 的 关键 用 户 和 信息 传播 者 。 
CN 因此 ,笔者 利用 社会 网 络 挖掘 的 方法 识别 知 乎 平 


回答 网 络 由 用 户 提出 的 问题 和 用 户 的 回答 构成 ,例如 
在 图 1 中 用 户 U2 和 U5 分 别提 出 了 问题 Ql 和 Q2 , 问 
题 Al 和 A2 回答 了 Q1 ,因此 从 Al 和 A2 分 别 有 一 条 
指向 Q5 的 单 向 直线 。 接 下 来 针对 知 乎 双 层 网 络 结构 
进行 抽象 建 模 。 

根据 知 乎 网 络 的 社交 关系 ,可 以 将 其 定义 为 一 个 
无 权 有 向 图 Csw = (V,E) ,其 中 Gs 表示 为 知 乎 社交 网 
络 构 建 的 无 权 有 向 图 ;VY 表示 为 项 点 集 ,每 一 个 独立 的 


全 乡 的 关键 意见 领袖 。 首 先 ,根据 数据 集 提供 的 用 户 


用 户 w s V;E 表示 为 边 集 ,如 果 用 户 v, 关注 了 用 户 v， 


类 双 建立 社交 网 络 和 问答 网 络 , 其 次 ,在 该 网 络 结构 中 
利 采 改进 的 PageRank 算法 和 HITS 算法 动态 挖掘 用 户 
的 网 响 力 。 进 而 ,利用 排序 算法 得 到 用 户 在 各 种 指标 
信 的 影响 力 排名 ,最 终 加 权 平 均 得 到 最 终 的 影响 力 排 
序 D 在 此 基础 上 ,构建 基于 话题 的 关键 意见 领袖 挖 所 
楼 剂 ,分析 关键 意见 领袖 在 网 络 中 的 特征 的 作用 ,以 验 
证 算法 的 有 效 性 。 


3 “数据 集 与 网 络 构建 


3: 电 数据 集 
OO 本 文 所 使 用 的 知 乎 数据 集 包括 2. 6 万 知 乎 平台 注 
朋 用 户 的 基本 信息 , 即 用 户 的 关注 数 、 粉 丝 数 、 获 得 先 
同 数 ,获得 感谢 数 、 获 得 收藏 数 、 回 答 数 ,提问 数 .文章 
数 等 相关 用 户 特 征 数据 。 此 外 ,还 获得 了 其 相互 之 间 
相对 应 的 关注 关系 和 问答 关系 。 选 取 这 2.6 万 用 户 中 
两 个 较为 活跃 子 集 进行 分 析 : 获 得 感谢 数 大 于 1 万 的 
用 户 ( 共 1 607 人 ) ,获得 感谢 数 大 于 5 万 的 用 户 ( 共 


络 结构 特性 如 表 1 所 示 : 
表 1 知 乎 数据 集 Net10K 和 NetS0K 具体 网 络 特性 描 


度量 指标 Net10K Net5OK 
用 户 ( 结 点 数 ) 1 607 398 
社交 网 络 (社交 关系 ) 120 360 20 310 
问答 网 络 (问答 关系 ) 27 846 3 921 
强 连通 分 支 数 量 52 9 
平均 最 短路 径 长 度 2.31 1.86 
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则 <wi,v > e ;该 网 络 的 结构 见 图 3(a)。 而 知 乎 网 
络 对 于 一 个 特定 话题 的 问答 关系 ,可 以 被 定义 为 一 个 
加 权 有 向 图 Cu = (V,E,W,P), 其 中 G6 表示 为 知 乎 
问答 网 络 构建 的 加 权 有 向 图 ;VY 表示 为 顶点 集 , 而 每 一 
个 顶点 代表 一 个 独立 的 知 乎 用 户 ;E 表示 为 边 集 , 如 果 
<v;,v; > e 五 则 表示 用 户 六 回答 了 用 户 六 提出 的 一 个 
问题 ;下 表示 为 边 权 重 癌 量 ,w; 表 示 为 用 户 v; 和 用 户 v 
之 间 问 答 关系 的 数量 ;已 表示 为 顶点 的 强度 ,由 于 在 真 
实 的 网 络 中 每 个 用 户 具有 不 同 的 影响 力 ,因此 根据 层 
次 分 析 法 确定 的 用 户 综 合 评价 模型 来 定义 p(i) ;该 网 


络 的 结构 见 图 3(b)。 
四 
CO 
> bP 


到 3(a) 社交 网 络 结构 


到 3(b) 问答 网 络 结构 


图 3 知 乎 网 络 结构 


4 关键 意见 领袖 挖掘 模型 
4.1 层次 分 析 法 构建 评价 指标 模型 
层次 分 析 法 是 一 种 利用 构建 评价 指标 的 层级 结 


构 , 是 一 种 定量 和 定性 分 析 的 决策 方法 。 在 评价 标准 
中 ,笔者 根据 知 乎 数据 集 的 特征 设 定 了 3 个 一 级 指标 
以 及 8 个 二 级 指标 ,如 表 2 所 示 : 


dy 
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表 2 层次 分 析 法 评价 指标 


一 级 指标 二 级 指标 


活跃 度 4 回答 数 41 
提问 数 4， 
文章 数 43 

获得 赞同 数 V 

获得 感谢 数 了 

获得 收藏 数 己 
粉丝 数 下 | 
关注 数 媚 


可 信 度 @ 


影响 力 7 


假设 在 相同 一 级 指标 下 的 二 级 指标 的 权重 相同 ， 
因此 各 一 级 指标 的 公式 定义 如 下 : 


A=3(4 + A,+A;), Q=3(V+T+P) 


三 I= 序 ( P+F,) 公式 (1) 
其 中 ,各 二 级 指标 是 由 相对 应 的 真实 数据 归 一 化 
得 到 , 归 一 化 公式 如 下 所 示 : 


公式 (2) 


因此 ,根据 层次 分 析 法 对 于 用 户 i 的 综合 评价 模 


U(i) =w(i) +woQ (i) + wl(i) 公式 (3) 
< 其中 ,活跃 度 4、 可 信和 度 @ .影响 力 7 权 值 的 矩阵 向 
W = (wi4 ,wo ,wj) ,该 算法 如 表 3 所 示 : 
表 3 层次 分 析 法 算法 概述 

层次 分 析 法 : 

Jnitialize :N:G 中 总 顶点 数 

4A(i) :用 户 i 的 活跃 度 度量 
C 9 Q(2) :用 户 i 的 可 信和 度 度量 
7(i) :用 户 i 的 影响 力度 量 
各 指标 的 权 值 的 矩阵 向 量 为 w = (wa,wo, Wi) 


这 | 


While (i<N) 
U(i) =waA(i) +woQ(i) +wl(i) 
i=i+t+l 

return 


ULi) :每 个 用 户 i 的 综合 评价 模型 指标 


4.2 基于 PageRank 算法 关键 意见 领袖 挖掘 模型 
PageRank 算法 是 数据 挖掘 领域 较为 常见 的 一 种 算 
法 ,该 算法 利用 每 个 页 面 的 权威 值 来 评估 网 站 中 网 页 
的 重要 性 。 页 面 的 权威 值 被 定义 为 指向 该 页 面 的 其 他 
页 面 平 均 分 配给 该 页 面 的 权威 值 之 和 ,通过 迭代 计算 
可 以 得 到 最 终 的 网 页 等 级 划分 ”。 假 设 用户 在 社交 


法 相 结合 ,可 以 得 到 如 下 改进 的 PageRank 算法 ,用 于 
识别 知 乎 平台 中 的 意见 领袖 和 关键 用 户 。 

由 于 社交 网 络 是 一 个 无 权 有 向 网 络 ,根据 传统 的 
PageRank 算法 将 顶点 的 社交 网 络 排名 定义 如 下 : 

SR(i) =(1-aw) +a2SR()/d, 公式 (4) 

其 中 ,d; 是 结 点 7 的 出 度 ,a 是 阻尼 系数 ,其 取 值 范 
围 为 在 0 到 1 之 间 , 在 大 多 数 情况 下 将 a 取 为 0. 85™。 
在 真实 的 网 络 中 ,如 果 一 个 用 户 具 有 大 量 的 粉丝 而 没 
有 关注 其 他 用 户 ,就 可 能 造成 在 该 顶点 出 现 权 威 值 滞 
留 的 现象 ,进而 使 得 传递 受到 阻碍 。 因 此 ,引入 了 随机 
冲浪 模型 以 及 阻尼 系数 a 用 来 进行 随机 跳 转 ,解决 权 
威 值 不 断 滞留 的 现象 。 计 算 社交 网 络 各 用 户 影响 
力 的 PageRank 算法 见 表 4。 在 该 算法 中 为 了 得 到 更 为 
精确 的 结果 , 设 定 用 于 控制 迭代 结束 的 参数 。 为 
10。 


表 4 社交 网 络 PageRank 算法 概述 
基于 PageRank 算法 挖掘 社交 网 络 中 关键 意见 领袖 : 
Initialize : 

Ni:G 中 总 顶点 数 

e: 完 全 收敛 达到 的 精度 为 10 -20 

SRo(i) :问答 网 络 初始 权重 ,SRo(iD) =1/N 


While( SAIISR(i) -SR 1CD)12>e) 


SR(i) =(1-a) +Qa>(SROD)Ld) 
return 


SR(i) :每 个 用 户 i 在 社交 网 络 中 得 到 的 PageRank 值 


知 乎 平台 中 的 问答 网 络 是 一 个 加 权 有 向 的 网 络 ， 
因此 定义 两 个 顶点 之 间 的 边 权 重 如 下 : 
w=p(i) «MN, 公式 (5) 
其 中 ,p(i) 为 层次 分 析 法 根据 每 个 用 户 的 活跃 度 、 
可 信 度 以 及 影响 力 得 到 的 用 户 影响 力 综合 指标 ,和 N; 是 
用 户 i 和 用 户 j 在 问答 关系 中 出 现 的 次 数 。 由 于 问答 
网 络 需要 考虑 权重 ,因此 在 计算 的 时 候 需 要 在 每 个 顶 
点 形成 权威 值 的 不 对 等 传递 ,以 真实 反映 每 个 用 户 的 
影响 力 。 每 个 顶点 i 在 问答 网 络 SR(i) = (1 -a) +a 
三 SRCD7d 的 排名 QR(i) 可 以 被 定义 为 : 
QR(i) =(1 -a) +a5 (ORO)w/ Sw) 公式 (6) 
根据 对 应 的 问答 网 络 和 社交 网 络 计算 出 的 知 乎 排 
名 ,可 以 得 到 用 户 i 在 整个 知 乎 网 络 中 的 综合 排名 , 计 
算 公式 如 下 所 示 ; 
ZR(i) =wSR(i) +wOR(i) 公式 (7) 
其 中 ,w = (wi ,ws ) 为 问答 网 络 和 社交 网 络 的 权重 


sr 


网 络 与 问答 网 络 中 和 其 他 的 用 户 都 具有 相对 应 的 交互 
关系 ,笔者 将 知 乎 排名 值 (Zhihu-Rank ) 和 PageRank 算 


向 量 。 当 得 到 所 有 用 户 的 知 乎 排名 值 之 后 ,将 其 排序 
取 前 N 个 用 户 为 最 终 在 两 个 网 络 中 的 关键 意见 领袖 。 
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计算 问答 网 络 各 用 户 影响 力 的 PageRank 算法 如 表 5 
所 示 : 
表 5 问答 网 络 PageRank 算法 概述 


基于 PageRank 算法 挖掘 问答 网 络 中 关键 意见 领袖 : 


Initialize: 

N:G 中 总 顶点 数 

e: 完 全 收敛 达到 的 精度 为 10 -2 

Pi :从 层次 分 析 法 用 户 综合 评价 模型 中 得 到 每 个 用 户 的 活跃 度 
Ni 用 户 半 和 用 户 7 在 问答 关系 中 出 现 的 次 数 

wj: 用 户 i 和 用 户 j 之 间 边 的 权重 
QR0(i) : 间 管 网 络 初始 权重 ,QR0(i) =1/N 


While( SN IIQOR(i) -OR,_1(i) ?ze) 
QR(i) = (1 -a) +a> (QRO)wi/ Swir) 
return 


QR(i) :每 个 用 户 i 在 问答 网 络 中 得 到 的 PageRank 值 


4. 了 2 基于 HITS 算法 关键 意见 领袖 挖掘 模型 
A 最初 HITS 算法 也 应 用 于 网 页 排序 ,其 本 质 是 一 种 
网 乡 图 的 结构 挖 据 。HITS 算法 将 网 页 分 成 中 心 网 页 
和 权威 网 页 两 大 类 。 权 威 网 页 被 定义 为 普遍 认可 的 对 
堵 特 定 主旨 的 重要 网 页 ,而 中 心 网 页 被 定义 为 指向 多 
5 特定 主旨 相关 的 权威 网 页 的 网 页 。 权 威 网 页 和 中 
他 网页 之 间 存在 相互 加 强 的 依赖 关系 ,一 个 好 的 权威 
网 而 应 该 被 很 多 好 的 中 心 网 页 所 指向 ;而 一 个 好 的 中 
人 出 页 应 该 指向 很 多 好 的 权威 网 页 。HIFS 算法 利 
用 也 权威 网 页 和 中 心 网 页 之 间 互 相 加 强 的 关系 ,通过 
选 代 计算 得 到 网 页 排序 结果 。 对 应 到 知 乎 的 社交 网 络 
和 疗 管 网 络 中 ,权威 值 可 以 被 认为 意见 领袖 的 体现 ,而 
中 芒 值 可 以 被 认为 是 信息 传播 者 的 体现 。 
-加 因为 ,笔者 将 知 乎 的 社交 网 络 定义 为 无 权 有 向 网 
络 , 根 据 传统 的 HITS 算法 ,可 以 将 每 一 次 迭代 步骤 
定义 如 下 : 

下 = Th" hh Zoo" 公式 (8) 

其 中 ,a, 是 用 户 i 的 权威 值 ,h, 是 用 户 i 的 中 心 值 ， 
通过 不 断 迁 代 直到 拟 合 得 到 在 社交 网 络 下 用 户 i 的 最 终 
权威 值 和 中 心 值 , 设 定 用 于 控制 送 代 结束 的 参数 。 为 
10-”。 计 算 社 交 网 络 各 用 户 影响 力 的 HITS 算法 见 表 6。 

知 乎 平台 中 的 问答 网 络 是 一 个 加 权 有 向 的 网 络 ， 
因此 可 以 定义 权重 如 公式 (5) ,将 定义 中 的 权重 考虑 
进 问答 模型 的 HITS 算法 中 : 

在 计算 权威 值 的 过 程 中 考虑 用 户 的 综合 影响 力 ， 
而 计算 中 心 值 的 过 程 中 为 了 避免 过 分 放大 层次 分 析 法 
模型 ,因此 不 考虑 加 入 权 值 进行 迁 代 。 根 据 以 上 提出 
的 HITS 传统 算法 ,对 计算 中 心 值 和 权威 值 迄 代 公 式 进 
行 改进 ,得 到 如 下 公式 : 
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表 6 社交 网 络 HITS 算法 概述 
基于 HITS 算法 挖掘 社交 网 络 中 关键 意见 领袖 : 
Initialize : 
N:G 中 总 顶点 数 
e: 完 全 拟 合 达到 的 精度 为 10 -加 
ao(i) :社交 网 络 的 权威 值 初始 化 为 ao(i) = 1/Vn 
hi( 引 :社交 网 络 的 中 心 值 初始 化 为 ho(2) =1AVm 
4: 迁 代 次 数 1=1 
While( SA ilaiD at DI2+ hd) 一 ii)12<e) 


aittt+1) = 了 和 全 ht+l) = Ta? 


Yi(aitr0)2=1 iMac+0)2=1 

return 
AUTH_SR(i) = ui( 社 交 网 络 中 每 个 用 户 在 HITS 算法 下 的 权威 值 ) 
HUB_SR(i) =hi( 社交 网 络 中 每 个 用 户 在 HITS 算法 下 的 中 心 值 ) 


Ga Sh" ww; J Fa" 公式 (9) 
由 于 在 HITS 算法 中 考虑 到 了 权重 以 及 问答 关系 ， 
将 该 算法 到 达 拟 合 条 件 中 得 到 的 a 作为 407N_04 
(让 ) ,hh 作为 HUB_Q4(i)。 
根据 对 应 的 问答 网 络 和 社交 网 络 计算 出 的 HITS 
知 乎 排名 ,可 以 得 到 用 户 i 在 整个 知 乎 网 络 中 的 权威 
值 和 中 心 值 的 综合 排名 ,计算 公式 如 下 所 示 : 
ZR_AUTH(i) =wAUTH_SR(i) +w,AUTH_QA(i) 
公式 (10) 
ZR_HUB(i) =w HUB_SR(i) +w,HUB_QA(i) 
公式 (11) 


5 实验 与 分 析 


5.1 网 络 结构 

知 乎 的 社交 网 络 结构 由 大 规模 用 户 的 相互 关注 
关系 构成 ,而 问答 网 络 结构 由 用 户 之 间 相 对 应 的 问答 
关系 构成 。 由 于 计算 量 的 限制 ,笔者 选取 了 NetlOK 和 
Net50K 两 个 活跃 的 子 数据 集 来 挖掘 知 乎 社交 网 络 和 
问答 网 络 中 TOP10 关键 意见 领袖 。 为 了 分 析 网 络 的 
基本 特性 ,在 数据 集 NetlOK 上 绘制 人 度 分 布 图 。 图 4 
(a) 和 (b) 的 人 度 分 布 图 显示 了 知 乎 社交 网 络 和 问答 
网 络 都 是 一 个 无 标 度 网 络 ,因为 它们 都 服从 寡 率 分 布 。 

由 图 4(a) 可 以 看 出 ,基于 社交 网 络 的 度 分 布 大 量 
集中 在 500 -2 000 之 间 ,而 人 度 大 于 7 000 的 用 户 不 
足 0.1% 。 而 基于 问答 网 络 的 度 分 布 大量 集 中 在 100 
-250 之 间 ,此 网 络 的 寄 指 数 y=1.78。 这 说 明 在 问答 
网 络 中 存在 一 个 较为 稀 玖 的 邻接 和 矩阵 ,但 是 网 络 中 入 
度 比较 大 的 结 点 较 少 ,因此 说 明 权 威 用 户 在 问答 网 络 
中 的 分 布 较为 分 散 。 进 一 步 统计 后 发 现 , 在 问答 网 络 
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所 有 的 27 846 条 问答 关系 中 ,前 100 名 回答 者 所 占 比 
例 为 49% ,而 前 100 名 问题 者 仅 占 比例 为 2.8% 。 

其 中 ,对 NetlOK 社交 网 络 中 的 用 户 进行 社交 网 络 
中 多 种 维度 上 的 评估 ,得 到 该 用 户 集 的 基本 统计 情况 ， 
如 霸 7 所 示 ; 
C 迁 7 Netl0K 数据 集 基本 统计 情况 TOP10 活跃 用 户 


奖 同 政 。 和信 讼 特征 向 量 。 介 数 。 近 性 。 人 
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一 从 表 7 可 以 看 出 ,基于 NetlOK 数据 集 笔者 从 赞同 
数 .入 度 特征 向 量 中心 度 、 介 数 中 心 度 . 近 性 中 心 度 5 
个 角度 对 数据 集中 的 用 户 进行 了 评估 ,并 得 到 了 最 终 


具有 TOP10 影响 力 的 用 户 。 其 中 ,赞同 数 代表 该 用 户 
被 其 他 用 户 赞 同 的 总 数目 ,在 知 乎 中 每 一 次 点 赞 可 以 
代表 该 用 户 在 知识 、 经 验 分 享 的 过 程 中 获得 了 理解 和 
赞同 ,是 权威 度 和 曝光 度 的 一 种 展现 ;人 度 代表 的 是 该 
用 户 被 关注 的 数目 ,在 知 乎 中 被 关注 的 数目 越 多 ,代表 
该 用 户 具有 较 大 的 凝聚 力 和 重要 性 ;特征 向 量 中 心 度 
代表 的 是 一 个 用 户 的 重要 性 取决 于 其 邻居 结 点 的 数 
量 , 也 取决 于 其 邻居 结 点 的 重要 性 ,因此 一 个 用 户 的 特 
征 向 量 中 心 度 越 高 ,代表 被 越 多 重要 的 用 户 关注 ; 介 数 
中 心 度 代表 经 过 某 个 点 的 最 短路 径 数目 。 一 个 用 户 的 
介 数 中 心 度 越 高 ,说 明 其 他 点 之 间 的 最 短路 径 很 多 甚 
至 全 部 都 必须 要 经 过 它 中 转 ,因此 它 成 为 了 很 多 用 户 


是 


之 间 交 流 的 通道 ; 近 性 中 心 度 代 表 一 个 结 点 和 其 他 结 
点 之 间 的 接近 程度 。 一 个 用 户 的 近似 中 心 度 越 高 , 代 
表 该 用 户 与 网 络 中 其 他 用 户 的 距离 总 体 来 说 较 近 , 反 
之 则 较 远 。 利 用 以 上 5 个 指标 ,可 以 从 各 个 角度 衡量 
每 个 用 户 在 社交 网 络 中 的 影响 力 ,得 到 一 个 基于 网 络 
特性 的 综合 TOP10 影响 力 排名 。 
5.2 基于 PageRank 算法 模型 结果 与 分 析 

根据 改进 的 PageRank 算法 , 表 8 和 表 9 给 出 了 从 
Net10K 和 Net50K 数据 集中 的 社交 网 络 和 问答 网 络 中 
分 别 得 到 的 PageRank 值 ( 分 别 为 SR 值 和 QR 值 ) ,并 
对 其 进行 加 权 得 到 最 终 的 综合 知 乎 排名 值 Zhihu - 
Rank。 表 8 和 表 9 中 显示 了 知 乎 社交 网 络 和 问答 网 络 
Netl0 和 Net50 中 具有 前 10 名 Zhihu-Rank 值 的 关键 用 
户 。 


出 


表 8 基于 PageRank 算法 模型 Netl0K: 
关键 意见 领袖 TOP10 

排名 名 称 SR 值 QR 值 Zhihu-Rank 
1 张 家 玮 0.003 87 0.007 12 0.005 49 
2 黄 继 新 0.004 70 0.003 20 0.003 95 
3 张 亮 0. 003 25 0.004 15 0.003 70 
4 马 伯 庸 0.003 22 0.003 12 0.003 17 
5 yolfilm 0.002 77 0.003 50 0.003 14 
6 Raymond Wang 0.002 72 0.00342 0.003 07 
7 周 源 0.003 12 0.002 85 0.002 99 
8 葛 巾 0. 002 50 0.002 69 0.002 60 
9 张 小 北 0. 002 65 0.002 52 0.002 58 
10 梁 边 妖 0.002 70 0. 002 45 0.002 57 


由 表 8 看 出 ,基于 Net10K 数据 集 挖掘 得 到 的 关键 
用 户 TOP10 和 用 户 的 基础 统计 集 TOP10 具有 较 多 的 
重合 用 户 ,这 说 明 通 过 PageRank 算法 得 到 的 关键 意见 
领袖 具有 有 效 性 ,可 以 较为 客观 地 反映 出 知 乎 平台 中 
的 具有 突出 特性 ,并且 具有 信息 引导 和 传播 作用 的 关 
键 用 户 。 
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表 9 基于 PageRank 算法 模型 NetS0K: 
关键 意见 领袖 TOP10 


排名 名 称 SR 值 QR 值 Zhihu-Rank 
1 张 佳 玮 0.0125 0.043 2 0.0279 
2 yolfilm 0.0102 0.014 8 0.0125 
3 vezh 0.009 2 0.0139 0.0115 
4 Raymond Wang 0.008 5 0.013 5 0.011 0 
5 朱 炫 0.009 5 0.012 1 0.010 8 
6 cOMMANDO 0.008 2 0.012 0 0.010 1 
7 马 伯 庸 0.0089 0.010 8 0.0099 
8 梁 边 妖 0.009 5 0.009 2 0.009 3 
9 王孙 0.0076 0.0110 0.009 3 
10 葛 巾 0.009 3 0.008 9 0.009 1 


由 于 NeUOK 和 Net50K 的 结 点 个 数 具 有 较 大 的 差 
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图 5 TOP N 关键 意见 领袖 信息 的 多 样 性 比较 


蜡 5 而 网 络 特性 中 由 于 Net50K 和 NetlOK 的 平均 最 短 

程度 分 别 为 2.31 和 1.86, 由 此 可 以 说 明 Net50K 
HENPtIOK 的 网 络 关注 圈 更 为 紧密 。 因 此 ,基于 这 两 个 
数据 集 构建 的 PageRank 算法 能 够 挖掘 出 在 不 同 的 网 
千 芭 密度 ( 网 络 大 小 不 同 ) 以 及 多 种 网 络 架构 (社交 网 
络 利 问答 网 络 下 ) 的 关键 意见 领袖 , 表 8 和 表 9 分 别 反 
螨 弛 在 网 络 大 小 和 紧密 度 不 同 的 条 件 下 得 到 的 TOP10 
光 键 意见 领袖 。 由 表 8 和 表 9 可 以 看 出 ,其 中 部 分 关 
键 填 见 领袖 在 两 个 不 同 的 数据 集中 都 得 到 了 较 大 的 
phoxRank 值 ,这 说 明 该 领袖 的 权威 性 和 影响 力 不 受 其 
外 晕 社 交 网 络 范围 的 缩小 而 改变 ,并 且 其 社交 图 和 问 
钙 疆 也 具有 较 强 的 稳定 性 和 强 影响 力 。 

GS 根据 PageRank 算法 的 结果 ,可 以 将 NetlOK 中 所 
有 压 户 的 zhihu-Rank 进行 排名 。 我 们 选取 了 PageRank 
模型 下 的 前 40 个 关键 意见 领袖 ,对 其 关注 数 .关注 者 
数 .回答 数 .提问 数 以 及 可 信 度 进行 度量 ,并 将 结果 给 
制 在 图 5 中 。 

从 图 5 中 可 以 看 出 : 当 N 大 于 25 时 ,能 够 决定 一 
个 用 户 影 响 力 的 多 种 参数 指标 将 都 会 表现 的 非常 稳 
定 ;而 当 N 小 于 10 时 ,多 种 参数 指标 就 会 产生 较 大 程 
度 的 波动 。 因 此 ,对 于 TOP N 关键 意见 领袖 的 关注 范 
围 应 该 在 10 -20 之 间 ,可 以 找到 较为 准确 和 客观 的 关 
键 用 户 。 因 此 ,在 表 5 中 选择 TOP10 用 户 为 合理 的 研 
究 区 间 范 围 。 与 此 同时 ,从 图 5 中 可 以 发 现 关 注 的 
TOP10 领袖 都 具有 较 多 的 回答 数 和 较 多 的 粉丝 数 。 在 
社交 网 络 中 ,更 多 的 粉丝 以 及 在 问答 网 络 中 更 多 有 意 

义 的 回复 都 意味 着 在 网 络 中 获得 更 强烈 的 关注 ,由 此 
可 以 从 侧面 证 明 笔者 的 分 析 是 合理 的 。 

5.3 基于 HITS 算法 模型 结果 与 分 析 
根据 改进 的 HITS 算法 模型 , 表 10 和 表 11 分 别 给 
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出 了 从 NetlOK 和 Net50K 数据 集中 的 社交 网 络 和 问答 
网 络 中 分 别 得 到 的 权威 值 (分 别 为 AUTH_SR 和 AUTH 
_QR) 以 及 中 心 值 ( 分 别 为 HUB_SR 和 HUB_QR) ,并 对 
其 加 权 得 到 了 最 终 的 知 乎 权威 排名 值 ZR_AUTH 和 知 
乎 中 心 排名 值 ZR_HUB。 表 10 和 表 11 中 分 别 显示 了 
知 乎 社交 网 络 和 问答 网 络 Net10 和 Net50 中 具有 前 5 
名 ZR_AUTH 和 ZR_HUB 值 的 关键 用 户 。 


表 10(a) 基于 HITS 算法 模型 Netl0K :权威 值 TOPS 
排名 名 称 AUTH_SR 值 AUTH_QR 值 ZR_AUTH 
1 张 佳 玮 0.005 28 0.006 12 0.005 70 
2 黄 继 新 0.004 92 0.004 39 0.004 66 
3 梁 边 妩 0.005 34 0.003 82 0.004 58 
4 马 伯 庸 0.005 10 0.00402 0.00456 
5 葛 巾 0.00476 0.00376 0.00426 
表 10(b) 基于 HITS 算法 模型 Netl0K :中 心 值 TOPS 
排名 名 称 HUB_SR 值 HUB_QR 值 ”ZR_HUB 
1 yolfilm 0.00459 0.00428 0.00435 
2 杨 大 懒 人 0.005 14 0.00312 0.00413 
3 徐 湘 楠 0.00428 0.00399 0.00413 
4 Edison Chen 0.00374 0.00288 0.00331 
5 ZENHO 0.00367 0.00254 0.00311 
表 11(a) 基于 HITS 算法 模型 Net50K :权威 值 TOPS 
排名 名 称 AUTH_SR 值 AUTH_QR 值 ZR_AUTH 
1 张 家 玮 0.007 25 0.006 21 0.006 73 
2 梁 边 妖 0.007 18 0.00312 0.005 15 
3 朱 炫 0.005 68 0.004 61 0.005 15 
4 马 伯 庸 0.005 60 0.00452 0.005 06 
3 谢 熊猫 君 0.004 91 0.004 98 0.00495 
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郭 博 , 许 吴迪 ， 雷 水 旺 . 知 乎 平台 用 户 影响 力 分析 与 关键 意见 领袖 挖 气 []]. 图 书 情报 工作 ,2018 ,62(20) :122 - 132. 
表 11(b) 基于 HITS 算法 模型 NetS0K :中 心 值 TOPS 时 ,PageRank 值 和 HITS 的 权威 值 都 较 好 地 展现 了 一 
排名 名 称 HUB_SR 值 HUB_QR 值 ZR_HUB 个 用 户 在 两 个 网 络 中 的 综合 影响 力 和 权威 性 。 而 在 
1 yolfilm 0.00628 0.005 82 0.00605 表 10(b) 中 ,可 以 看 出 推荐 的 用 户 大 多 数 都 不 属于 
2 采 铜 0.005 26 0.005 23 0. 005 25 PageRank 算法 获得 的 关键 意见 领袖 TOP10 集合 中 ， 
3 寺 主人 0.00510 0.0042%6 004@ ”甚至 有 一 些 用 户 在 基本 统计 集 TOP10 中 也 没有 出 现 
RE 省。 0o4% oo 0.0455 过。 由 此 可 以 表明 ,在 HUB 方面 (具有 较 高 中 心 值 ) 
5 Raymond Wang 0.00388 0.00512 0.00450 的 TOP5 用 户 虽 然 没有 在 社交 网 络 或 问答 网 络 中 表 


根据 表 10(a) 的 结果 ,可 以 看 出 在 AUTH 方面 
(有 具有 较 高 权威 值 ) 的 TOP5 用 户 全 部 都 出 现在 PageR- 
ank 算法 获得 的 关键 意见 领袖 TOP10 中 ,说 明 在 挖掘 
知 乎 平台 的 社交 网 络 和 问答 网 络 中 的 关键 意见 领袖 
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污 图 6(a) 和 图 6(b) 分 别 反映 了 HITS 算法 从 Netl0 

中 挖掘 出 的 TOP5 关键 意见 领袖 在 基本 统计 集 上 
面 的 指标 。 由 图 6(a) 可 以 总 结 出 ,具有 较 高 权威 值 的 
用 办 特征 一 般 在 于 单一 特征 的 绝对 优势 ,例如 具有 较 
高 贸 关 注 度 .回答 数 、 以 及 用 户 评估 模型 中 较 高 的 影响 
力 申 由 图 6(b) 可 以 总 结 出 ,具有 较 高 中 心 值 的 用 户 特 
征 一 般 在 于 各 种 指标 水 平 都 相对 平均 ,从 各 个 角度 都 
存在 较 强 的 信息 传播 的 能 

综合 来 看 ,HITS 算法 和 PageRank 算法 挖掘 出 的 关 
键 意见 领袖 有 大 量 的 重合 用 户 , 因 为 PageRank 算法 获 
得 的 关键 意见 领袖 排序 值 大 致 近似 于 HITS 算法 中 
AUTH( 权威 值 ) 和 HUB( 中心 值 ) 的 一 种 有 序 着 加 。 例 
如 用 户 张 亮 的 AUTH 值 和 HUB 值 在 NetlOK 网 络 中 都 
不 在 TOPS 中 ,但 都 排 在 TOP15 之 间 ,而 PageRank 值 却 
排 在 TOP3 ,因此 可 以 证 明 很 多 用 户 既 能 受到 广大 关注 
者 的 吸引 ,又 是 信息 传播 的 渠道 。 
5.4 算法 评估 

图 7 显示 了 HITS 算法 和 PageRank 算法 在 关键 意 
见 领 袖 识别 过 程 中 的 拟 合 率 。 由 图 7 可 以 看 出 , 知 乎 
数据 集 在 HITS 算法 和 PageRank 算法 拟 合 的 过 程 中 收 


Feature Count % 


现 出 较 高 的 Zhihu-Rank 值 ,但 都 具有 和 较 高 的 介 数 中 
心 值 和 近似 中 心 值 ,进而 具有 较 强 的 信息 传播 和 交 
流 能 力 。 


Features of Opinion Leaders Measured by Hub 


到 6(b) 中 心 值 TOP5 的 各 指标 


图 6 基于 Net10 网 络 中 的 TOPS 关键 意见 领袖 相关 数据 


敛 的 速度 都 相对 较 快 ,并 且 PageRank 算法 比 HITS 算 
法 得 到 了 更 好 的 拟 合 率 。 而 PageRank 算法 的 拟 合 曲 
线 在 训练 样本 数量 的 20% 前 持续 上 升 ,而 在 20% 之 后 
就 达到 了 一 个 稳定 的 状态 。 相 比较 而 言 , HITS 算法 相 


对 来 说 收敛 速度 较 慢 ,需要 更 多 的 训练 样本 来 进行 迭 
代 。 
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7 PageRank 算法 和 HITS 算法 拟 合 比较 


根据 PageRank 算法 得 到 的 Zhihu -Rank 值 ,HITS 
算法 得 到 的 AUTH 值 \.HUB 值 ,以 及 用 户 本 身 的 赞同 
数 、 粉 丝 数 特征 向 量 中 心 度 、 介 数 中 心 度 、 近 性 中 心 度 
从 不 同 角度 反映 用 户 的 影响 力 。 因 此 ,进一步 对 用 户 
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的 PageRank 值 \.AUTH 值 \.HUB 值 以 及 5 个 评价 指标 
进行 相关 性 分 析 , 以 研究 其 内 在 的 联系 ,用 于 验证 算法 
的 有 效 性 。 


mm 一 Oo 


8 各 指标 相关 性 分 析 


其 中 ,图 8 中 的 0,1,2,3,4,5,6,7 分 别 代表 以 上 
的 & 个 指标 :PageRank 值 .AUTH 值 .HUB 值 .赞同 数 、 
粮 总 数 ,特征 向 量 中 心 度 、 介 数 中 心 度 以 及 近似 中 心 


通过 图 8 可 以 看 出 ,Zhihu-Rank 和 HITS 算法 得 到 
的 权威 值 AUTH .特征 向 量 中 心 度 、 近 似 中 心 度 存在 中 
詹 欠 相关 性 ,这 说 明 Zhihu-Rank 值 与 AUTH ,特征 向 量 
号 B 度 .近似 中 心 度 对 于 用 户 影响 力 的 衡量 并 不 相同 ， 

个 具有 不 同 含义 的 度量 值 。 而 Zhihu-Rank 与 赞同 
数 和 粉丝 数 具有 较 强 相 关 性 。 考 虑 到 一 个 粉丝 数 与 先 
同 数 较 高 的 用 户 被 关注 及 做 出 回答 的 概率 较 大 ,因此 
本 区 证 明 该 用 户 在 PageRank 算法 里 较为 重要 的 结果 
是 符 理 的 。 
.全 而 从 权威 值 AUTH 与 中 心 值 HUB 的 相关 性 值 可 
TR 
移 年 阵 用 来 挖 气 用 户 重要 性 ,但 仍然 较 好 地 体现 了 用 
户 的 基本 统计 属性 。 例 如 其 粉丝 数 .赞同 数 、 以 及 各 类 
网 络 指标 都 在 其 中 得 到 了 有 效 平衡 。 

特别 的 ,虽然 权威 值 AUTH 和 中 心 值 HUB 存在 
中 等 相关 性 ,但 中 心 值 和 权威 值 在 TOP20 的 排名 上 
均 出 现 了 较 大 程度 上 的 重合 ,这 说 明 挖 掘 出 的 关键 
意见 领袖 不 仅 是 具有 强大 影响 力 的 人 ,也 是 信息 的 
传播 途径 。 
5.5 ”特定 话题 下 关键 意见 领袖 分 析 

为 了 验证 算法 的 有 效 性 ,笔者 通过 研究 某 科技 公 
司 的 话题 “XX 科技 ” ,来 检验 该 话题 客观 与 准确 性 。 
此 处 考虑 论文 的 客观 与 中 立 性 ,避免 软 广 嫌疑 ,作者 
隐 去 了 具体 公司 名 称 。。 因 此 ,我 们 利用 PageRank 算 
法 和 HITS 算法 分 别 挖掘 出 在 *XX 科技 "下 的 关键 话 
题 依赖 用 户 ,其 实验 结果 如 表 12 和 表 13 所 示 : 
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表 12 基于 PageRank 算法 模型 “XX 科技 ”: 
关键 意见 领袖 TOPS 


排名 名 称 SR 值 QR 值 Zhihu -Rank 
1 李楠 0.009 28 0.007 28 0.008 28 
2 机 敬 贤 0.006 21 0.007 08 0. 006 65 
3 黄 梁 一 觉 0.006 10 0.006 89 0. 006 50 
4 Wong Xu 0.005 10 0.006 92 0.006 01 
5 LJRFOX STUDIO 0.005 02 0.006 99 0.006 01 

表 13(a) 基于 HITS 算法 模型 “XX 科技 ”: 
权威 值 TOPS 

排名 名 称 HUB_SR 值 HUB_QR 值 ZR_HUB 
1 李楠 0.006 19 0.005 21 0.005 70 
2 胡 杰 0.005 50 0. 003 10 0.004 30 
3 刘海 光 0.004 92 0. 003 10 0.004 01 
4 黄 轶 轩 0. 005 23 0. 002 62 0.003 92 
5 鬼 蓝 科技 0.005 71 0. 002 10 0.003 91 

表 13(b) 基于 HITS 算法 模型 “XX 科技 ”: 
中 心 值 TOPS 

排名 名 称 AUTH SR 值 ”AUTH_QR 值 ZR_AUTH 
1 吴 章 金 falcon 0.005 11 0. 005 00 0. 005 05 
2 杨 甚 庆 0.005 22 0.004 38 0.004 80 
3 邓 邓 大 人 0. 004 82 0.003 90 0.004 36 
4 黄 梁 一 觉 0.005 02 0. 003 53 0.004 28 
5 Wong Xu 0.004 99 0.003 38 0.004 19 


表 14 知 乎 认证 “XX 科技 下 ”优秀 回答 者 


排名 名 称 粉丝 数 赞同 数 感谢 数 
1 李楠 419 083 204 346 35 897 
2 胡 杰 18 894 121 780 23 262 
3 邓 邓 大 人 3 905 15 989 3 348 


由 表 12 和 表 13 可 以 看 出 基于 话题 “XX 科技 ”下 
的 TOP5 关键 意见 领袖 ,虽然 PageRank 算法 和 HITS 算 
法 从 不 同 角度 对 用 户 的 影响 力 进行 了 衡量 ,但 二 者 
TOPS 的 结果 中 仍然 出 现 了 重合 。 例 如 知 乎 用 户 李 楠 、 
黄 梁 一 觉 和 Wong Xu 在 PageRank 算法 中 属于 TOP5 ， 
在 HITS 算法 中 权威 值 或 中 心 值 也 出 现在 TOP5 ,这 说 
明 该 类 用 户 在 知 乎 关键 意见 领袖 的 网 络 中 即 是 “权威 
用 户 ” ,又 是 “信息 传播 者 ” 。 因 此 ,挖掘 这 类 用 户 无 论 
是 在 商业 营销 中 ,还 是 用 户 影 响 力 学 术 人 研究 中 都 会 产 
生 巨 大 的 参考 价值 。 

表 14 为 知 乎 平台 认证 的 基于 该 话题 的 优秀 回答 
者 ,其 中 包括 了 三 位 比较 的 知名 的 用 户 李 楠 、 胡 杰 以 及 
邓 邓 大 人 。 而 从 表 12 和 表 13 显示 的 结果 可 以 看 出 ， 
这 三 位 用 户 都 被 笔者 提出 的 算法 从 不 同 角 废 挖掘 出 
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来 ,成 为 知 乎 平台 中 具有 话题 依赖 的 关键 意见 领袖 。 
由 以 上 的 结果 也 可 以 看 出 ,笔者 提出 的 算法 具有 较 强 
的 实用 性 和 准确 性 。 


[RE 


以 知 乎 用 户 之 间 的 社交 关系 和 问答 关系 构建 知 乎 
社交 网 络 和 问答 网 络 ,通过 层次 分 析 法 进行 指标 分 层 ， 
建立 用 户 影响 力 评 价 模型 ,并 应 用 到 后 续 的 PageRank 
算法 和 HITS 算法 的 权重 选取 上 ,用 于 挖掘 知 乎 平台 中 
具有 较 强 影响 力 的 关键 领袖 。 通 过 结合 社交 网 络 和 问 
答 网 络 中 知 乎 用 户 的 重要 性 指标 ,克服 了 单一 网 络 中 
的 衡量 关键 领袖 算法 的 片面 性 和 局 限 性 。 同 时 ,通过 
改进 的 PageRank 算法 和 HITS 算法 ,考虑 到 用 户 活路 
古 可 信 度 和 影响 力 , 用 于 进一步 地 提升 关键 领袖 按 据 
过 称 中 的 准确 性 和 客观 性 ,使 得 对 于 关键 领袖 的 影响 
才 癌 析 更 为 全 面 。 实 验 结果 表明 ,笔者 提出 的 PageR- 
antk 算 法 和 HITS 算法 能 够 有 效 地 挖掘 出 知 平平 台中 

突出 特性 的 关键 领袖 ,并 且 算 法 的 收 仇 速度 


一 | Sas 
究 胡 ,其 结果 显示 了 挖 据 关 键 话题 领袖 和 影响 力 的 洪 


Co 
此 次 模 型 可 以 达到 驱动 和 指导 营销 的 作用 。 文 章 也 存 
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在 号 些 不 足 ,并 没有 考虑 到 “水 军 """ 群体 对 计算 关键 
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领 亚 影 响 力 的 负面 作用 ,这 也 是 今后 笔者 研究 的 另外 
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Analysis of User Influence and Identification of Key Opinion Leaders Based on Zhihu Platform 
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“The Hong Kong University of Science and Technology, Hong Kong 999077 
” Xuzhou College of Industrial Technology Library, Xuzhou 221140 

Abstract: [Purpose/significance| With the rapid development of network technology, the platform of Zhihu has 
become a significant carrier to discuss social public topics and share knowledge as well as specified experience. Therefore, 
it is of importance for studying the communication channels of social network information to investigate the influence of key 
users and dig out the key opinion leaders in the Zhihu platform. [Method/process| By the means of improved PageRank 
andLHITS algorithms ,this study constructed a model for evaluating user influence based on the social network and question 
afsWiering network of Zhihu platform, and identified the key users and opinion leaders accurately and objectively. [ Re- 
sul 以 conclusion ] The experimental results show that PageRank and HITS algorithms in this paper could effectively extract 
:al key opinion leaders with prominent features in Zhihu platform, the speed of the convergence is fast and with high 
revsability and mobility. By processing and analyzing the user data set of Zhihu platform, we successfully build a model 
fo Evaluating the user influence and mining key opinion leaders. Along with the verification of specified topics, it can be 
ied that this model has enormous application value and commercial promotion prospect. 


全 Keywords: Zhihu user influence key opinion leader PageRank algorithm HITS algorithm 
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《 泛 在 信息 社会 与 图 书馆 服务 转型 》 书 讯 


由 朱 强 (北京 大 学 图 书馆 前 馆 长 .研究 馆 员 ) 、 别 立 谦 (北京 大 学 图 书馆 副 馆 长 、 副 研究 馆 员 ) 主 编 的 《 泛 在 信息 
社会 与 图 书馆 服务 转型 》 一 书 , 日 前 (2018 年 3 月 ) 由 人 民 出 版 社 出 版 。 本 书 是 国家 社 科 基 金 重 点 项 目 “ 面 向 泛 在 
信息 社会 的 国家 战略 及 图 书馆 对 策 研究 ”的 成 果 。 该 书 在 对 “ 泛 在 信息 社会 “ 泛 在 图 书馆 ” 认 知 调查 分 析 , 对 美国 
“智慧 地 球 "计划 日本“U-Japan 计划 .欧洲 "数字 社会 计划、 韩国 "U-Korea ”计划 及 我 国 台湾 地 区 ”"U-Taiwan ”计划 
和 发 展现 状 调研 的 基础 上 ,提出 中 国 应 尽早 明确 确立 以 泛 在 技术 作为 战略 支撑 以 泛 在 大 数据 作为 战略 基础 以 泛 
在 信息 服务 作为 社会 服务 转型 的 重点 、 以 “ 泛 在 人 "作为 教育 的 终极 目标 、 以 与 泛 在 信息 管理 与 服务 相 适 应 的 法 律 
法 规 为 基础 保障 的 的 “ 泛 在 中 国 ”(U-China) 国家 战略 ,并 为 此 战略 框架 下 传统 图 书馆 向 “ 泛 在 图 书馆 ”转型 发 展 指 
明 方 向 ,为 其 提供 技术 转型 .资源 转型 ,服务 转型 和 管理 转型 对 策 ,为 我 国 泛 在 信息 化 建设 战略 的 正式 出 台 和 泛 在 
图 书馆 的 战略 转型 提供 参考 。 


ss SS 
人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


| 
1 
， 
| 
1 
1 
1 
1 
? 
1 
， 
| 
1 
1 
| 


132 


